本文解决了缺少嘈杂和非高斯数据数据的数据的问题。与其他流行的方法相比,一种经典的插补方法,即高斯混合模型的期望最大化(EM)算法,它显示出有趣的特性,例如基于K-Neartivt邻居或通过链式方程式进行多个归纳的方法。然而,已知高斯混合模型对异质数据不舒适,当数据被异常值污染或遵循非高斯分布时,这可能导致估计性能差。为了克服这个问题,研究了一种新的EM算法,用于椭圆形分布的混合物与处理潜在丢失数据的特性。本文表明,此问题减少了在通用假设下的角度高斯分布的混合物的估计(即,每个样品都是从椭圆形分布的混合物中绘制的,对于一个样品而言,这可能是不同的)。在这种情况下,与椭圆形分布的混合物相关的完整数据可能非常适合EM框架,由于其条件分布而缺少数据,这被证明是多元$ t $分布。合成数据的实验结果表明,所提出的算法对异常值是可靠的,可以与非高斯数据一起使用。此外,在现实世界数据集上进行的实验表明,与其他经典插补方法相比,该算法非常有竞争力。
translated by 谷歌翻译